在浅层句法树和依存关系树的基础上, 提出两种结构化特征: 基于短语的浅层句法树NPST和基于短语的依存树NPDT, 并将它们与Tree-LSTM模型相结合, 进行句子相似度计算。实验表明, 使用结构化特征和Tree-LSTM会带来性能的提升。
提出一种融合多模型和高置信度词典的事件线索识别方法, 将高置信度词典特征分别加入最大熵模型和条件随机场模型, 然后融合两个模型的结果, 旨在提高触发词识别的召回率和整体性能。针对事件真伪性识别任务, 进一步考察否定词或不确定词与触发词的物理位置距离和依存路径距离等特征, 提高事件真伪性识别的性能。实验结果显示, 针对触发词识别和事件真伪性识别任务, 与仅使用最大熵模型相比, 所提出的融合多模型与高置信度词典的方法能够提高触发词识别的性能6.43%, 提高事件真伪性识别的性能1.69%。
针对目前对事件同指关系的研究中多采用事件对分类或聚类方法而忽略事件相互之间内在联系的问题, 提出一个中文事件同指消解的全局优化模型, 用于减少因分类器错误造成的同指事件链不一致问题。该模型利用对称性、传递性、触发词、论元角色、事件距离等多种约束条件, 将同指消解转化成整数线性规划问题。实验结果表明, 与分类器方法相比, 全局优化模型的F1值提高4.20%。
现有的中文事件触发词抽取方法大多数采用特征工程和触发词扩展方法, 无法利用同一文档中各个触发词实例之间的内在关系。为了解决上述问题, 基于马尔科夫逻辑网络(MLN), 利用核心词素, 训练语料中触发词实例填充真假事件的概率, 以及触发词实例间的关系等信息来推导测试集中缺乏有效上下文信息和低可信度的触发词实例。在ACE 2005 中文语料上的实验结果表明, 与基准系统相比, 该方法在触发词识别和事件类型分类阶段F1值分别提高3.65%和2.51%。